【NLP论文分享&&文本生成】基于Transformer的变分自动编码器(VAE)(清华大学含源码)
引言
在过去的几年中,「变分自动编码器(VAE)在各种文本生成任务中表现出了优越性」。然而,由于文本的顺序性,自回归解码器往往会忽略潜在变量,然后简化为简单的语言模型,即KL消失问题。并且当VAE与基于transformer的结构相结合时,这一问题会进一步恶化。为了改善这一问题,「本文提出了一种新的变分Transformer框架DELLA」。
背景介绍
变分自动编码器(VAE) 已被证明,可以生成各种文本,如风格文本、对话、故事和诗歌。文本的顺序性导致 VAE 中通常使用自回归解码器进行语言生成。然而,如此强大的解码器却倾向依赖先前生成的单词来规避学习有价值潜在码的困难,因此忽略了潜在变量,被称为KL消失或后验崩溃。这一问题导致了两个缺陷:
(a)后验分布迅速转变为前验分布(通常为标准高斯分布),导致建立表达性的潜在表示; (b)解码器简化为朴素的语言模型,导致生成的文本单调。
「为了改善这一问题,研究人员设计了各种技术。其中,常用的三种方法包括弱化解码器,KL annealing和KL阈值」。但是解码器的弱化限制了模型的语言建模能力;KL annealing超参数难以调优;KL阈值引入了一个具有一定优化难度的非平滑问题。
在RNN时代,利用潜在变量作为初始解码器状态,VAE可以很容易地纳入,而如何将「VAE与最近流行的在文本生成方面取得突破的Transformer 架构相结合,仍然是一个巨大的挑战」。
(a)直接将潜在变量添加到输入令牌嵌入(简称嵌入); (b)将潜在变量作为单独的记忆标记向量,在每一层中由自我注意参与(简称memory); (c)将潜在变量与输出softmax(缩写softmax)之前的最后一层解码器状态相结合。
然而,范式(a)给self-attentiion带来了噪音。在范式(b)中,记忆向量容易被attation忽略,甚至加剧KL消失。在范式(c)中,潜变量不会对整个计算路径产生深度干扰。
本文模型介绍
为了更好地「将Transformer集成到VAE中,并从理论上改善KL消失问题」,本文提出了一种新的变分Transformer框架DELLA1。DELLA在Transformer编码器中学习一系列逐层隐变量,每个变量都是从较低层的隐变量推断出来的,然后通过低秩张量积与相应解码器层的隐藏状态紧密耦合。
本文方法在理论上刺激了隐变量的纠缠,因此允许层间传播未减少的潜信息(具体理论证明建议看论文)。因此,「DELLA 迫使后潜变量与整个计算路径深度融合(可以吸收更多的信息),并对输入文本的更丰富信息进行编码,即使没有任何annealing或阈值训练技巧,也能实现更高的 KL 值」。
在4个无条件生成任务和3个有条件生成任务上的实验表明,与若干强基线相比,DELLA能够更好地缓解KL消失,提高质量和多样性。
实验结果展示
「无条件生成实验结果」。如下图所示:DELLA在几乎所有指标上都取得了显著的改进,尤其是在表示学习上。
推荐阅读
[1]必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享
[2]【NLP论文分享&&源码】多修辞文本生成(nFLAG)
[4]【硬核干货,请拿走!!】历年IJCAI顶会论文整理(2016-2021)
[5]【EMNLP2021&&含源码】当“Attention“遇到”Fast Recurrence“,强大的语言训练模型!!
论文&源码
「Title」: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation.
「Author」: Tsinghua University
「Paper」:https://arxiv.org/pdf/2209.01835v1.pdf
「Code」:https://arxiv.org/pdf/2207.06130v1.pdf
点击下方链接🔗关注我们吧
资料整理不易,帮忙点个“赞”、“在看”